## [1] "/home/benetti/git/udacity/NDDataScientist/br-machine-learning/projects/R"
## 'data.frame':    1599 obs. of  14 variables:
##  $ X                   : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ fixed.acidity       : num  7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
##  $ volatile.acidity    : num  0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
##  $ citric.acid         : num  0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
##  $ residual.sugar      : num  1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
##  $ chlorides           : num  0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
##  $ free.sulfur.dioxide : num  11 25 15 17 11 13 15 15 9 17 ...
##  $ total.sulfur.dioxide: num  34 67 54 60 34 40 59 21 18 102 ...
##  $ density             : num  0.998 0.997 0.997 0.998 0.998 ...
##  $ pH                  : num  3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
##  $ sulphates           : num  0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
##  $ alcohol             : num  9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
##  $ quality             : Ord.factor w/ 6 levels "3"<"4"<"5"<"6"<..: 3 3 3 4 3 3 3 5 5 3 ...
##  $ rating              : Ord.factor w/ 3 levels "ruim"<"medio"<..: 2 2 2 2 2 2 2 3 3 2 ...
##        X          fixed.acidity   volatile.acidity  citric.acid   
##  Min.   :   1.0   Min.   : 4.60   Min.   :0.1200   Min.   :0.000  
##  1st Qu.: 400.5   1st Qu.: 7.10   1st Qu.:0.3900   1st Qu.:0.090  
##  Median : 800.0   Median : 7.90   Median :0.5200   Median :0.260  
##  Mean   : 800.0   Mean   : 8.32   Mean   :0.5278   Mean   :0.271  
##  3rd Qu.:1199.5   3rd Qu.: 9.20   3rd Qu.:0.6400   3rd Qu.:0.420  
##  Max.   :1599.0   Max.   :15.90   Max.   :1.5800   Max.   :1.000  
##  residual.sugar     chlorides       free.sulfur.dioxide
##  Min.   : 0.900   Min.   :0.01200   Min.   : 1.00      
##  1st Qu.: 1.900   1st Qu.:0.07000   1st Qu.: 7.00      
##  Median : 2.200   Median :0.07900   Median :14.00      
##  Mean   : 2.539   Mean   :0.08747   Mean   :15.87      
##  3rd Qu.: 2.600   3rd Qu.:0.09000   3rd Qu.:21.00      
##  Max.   :15.500   Max.   :0.61100   Max.   :72.00      
##  total.sulfur.dioxide    density             pH          sulphates     
##  Min.   :  6.00       Min.   :0.9901   Min.   :2.740   Min.   :0.3300  
##  1st Qu.: 22.00       1st Qu.:0.9956   1st Qu.:3.210   1st Qu.:0.5500  
##  Median : 38.00       Median :0.9968   Median :3.310   Median :0.6200  
##  Mean   : 46.47       Mean   :0.9967   Mean   :3.311   Mean   :0.6581  
##  3rd Qu.: 62.00       3rd Qu.:0.9978   3rd Qu.:3.400   3rd Qu.:0.7300  
##  Max.   :289.00       Max.   :1.0037   Max.   :4.010   Max.   :2.0000  
##     alcohol      quality   rating    
##  Min.   : 8.40   3: 10   ruim :  63  
##  1st Qu.: 9.50   4: 53   medio:1319  
##  Median :10.20   5:681   bom  : 217  
##  Mean   :10.42   6:638               
##  3rd Qu.:11.10   7:199               
##  Max.   :14.90   8: 18

Secao de Graficos Univariados

## Warning: Removed 8 rows containing non-finite values (stat_boxplot).
## Warning: Removed 9 rows containing missing values (geom_point).
## Warning: Removed 8 rows containing non-finite values (stat_bin).
## Warning: Removed 2 rows containing missing values (geom_bar).

## Warning: Removed 21 rows containing non-finite values (stat_boxplot).
## Warning: Removed 22 rows containing missing values (geom_point).
## Warning: Removed 21 rows containing non-finite values (stat_bin).
## Warning: Removed 2 rows containing missing values (geom_bar).

## Warning: Removed 1 rows containing missing values (geom_bar).

## Warning: Removed 23 rows containing non-finite values (stat_boxplot).
## Warning: Removed 23 rows containing missing values (geom_point).
## Warning: Removed 23 rows containing non-finite values (stat_bin).
## Warning: Removed 2 rows containing missing values (geom_bar).

## Warning: Removed 25 rows containing non-finite values (stat_boxplot).
## Warning: Removed 26 rows containing missing values (geom_point).
## Warning: Removed 25 rows containing non-finite values (stat_bin).
## Warning: Removed 2 rows containing missing values (geom_bar).

## Warning: Removed 24 rows containing non-finite values (stat_boxplot).
## Warning: Removed 24 rows containing missing values (geom_point).
## Warning: Removed 24 rows containing non-finite values (stat_bin).
## Warning: Removed 2 rows containing missing values (geom_bar).

## Warning: Removed 2 rows containing non-finite values (stat_boxplot).
## Warning: Removed 2 rows containing missing values (geom_point).
## Warning: Removed 2 rows containing non-finite values (stat_bin).
## Warning: Removed 2 rows containing missing values (geom_bar).

## Warning: Removed 6 rows containing non-finite values (stat_boxplot).
## Warning: Removed 6 rows containing missing values (geom_point).
## Warning: Removed 6 rows containing non-finite values (stat_bin).
## Warning: Removed 2 rows containing missing values (geom_bar).

## Warning: Removed 1 rows containing non-finite values (stat_boxplot).
## Warning: Removed 6 rows containing missing values (geom_point).
## Warning: Removed 1 rows containing non-finite values (stat_bin).
## Warning: Removed 2 rows containing missing values (geom_bar).

Análise Univariada

Qual é a estrutura do conjunto de dados?

Esta estrutura apresenta 1599 linhas e 13 atributos, onde possui um atributo que fora adicionado ‘rating’ e um categorico ‘quality’, os demais campos descrevem as propriedades do vinho a ser estudada, onde estes campos são todos numéricos.

Quais são os principais atributos de interesse deste conjunto de dados?

É o atributo ‘quality’, o qual pretendo identificar quais fatores afetam este atributo que determina qual é a qualidade do vinho

Quais outros atributos você acha que podem lhe auxiliar na investigaçãoo destes atributos de interesse?

Devido a distribuição mais normalizada, eu acredito que deve ser fixed.acidity, volatile.acidity, densidade e Ph, onde último pode adicionar efeitos sobre os atributos.

Você criou novas variáveis a partir dos atributos existentes no conjunto de dados?

Sim, atributo rating

Dos atributos investigados, distribuições incomuns foram encontradas? Você aplicou operaçõeses nos dados para limpá-los, ajustá-los ou mudar a forma dos dados? Se sim, por que?

Sim, foram encontrados picos de valores elevados como no atributo fixed.acidity. Para remover os outliers, fora feito um rescaling das imagens.

Seção de Gráficos Bivariados

## 
## ---------------------------------------------------------------------------
##           &nbsp;            fixed.acidity   volatile.acidity   citric.acid 
## -------------------------- --------------- ------------------ -------------
##     **fixed.acidity**             1             -0.2561        **0.6717**  
## 
##    **volatile.acidity**        -0.2561             1           **-0.5525** 
## 
##      **citric.acid**         **0.6717**       **-0.5525**           1      
## 
##     **residual.sugar**         0.1148           0.001918         0.1436    
## 
##       **chlorides**            0.09371           0.0613          0.2038    
## 
##  **free.sulfur.dioxide**       -0.1538          -0.0105         -0.06098   
## 
##  **total.sulfur.dioxide**      -0.1132          0.07647          0.03553   
## 
##        **density**            **0.668**         0.02203        **0.3649**  
## 
##           **pH**             **-0.683**          0.2349        **-0.5419** 
## 
##       **sulphates**             0.183            -0.261        **0.3128**  
## 
##        **alcohol**            -0.06167          -0.2023          0.1099    
## 
##        **quality**             0.1241         **-0.3906**        0.2264    
## ---------------------------------------------------------------------------
## 
## Table: Table continues below
## 
##  
## ------------------------------------------------------------------------------
##           &nbsp;            residual.sugar   chlorides    free.sulfur.dioxide 
## -------------------------- ---------------- ------------ ---------------------
##     **fixed.acidity**           0.1148        0.09371           -0.1538       
## 
##    **volatile.acidity**        0.001918        0.0613           -0.0105       
## 
##      **citric.acid**            0.1436         0.2038          -0.06098       
## 
##     **residual.sugar**            1           0.05561            0.187        
## 
##       **chlorides**            0.05561           1             0.005562       
## 
##  **free.sulfur.dioxide**        0.187         0.005562             1          
## 
##  **total.sulfur.dioxide**       0.203          0.0474         **0.6677**      
## 
##        **density**            **0.3553**       0.2006          -0.02195       
## 
##           **pH**               -0.08565        -0.265           0.07038       
## 
##       **sulphates**            0.005527      **0.3713**         0.05166       
## 
##        **alcohol**             0.04208        -0.2211          -0.06941       
## 
##        **quality**             0.01373        -0.1289          -0.05066       
## ------------------------------------------------------------------------------
## 
## Table: Table continues below
## 
##  
## -----------------------------------------------------------------------------
##           &nbsp;            total.sulfur.dioxide     density         pH      
## -------------------------- ---------------------- ------------- -------------
##     **fixed.acidity**             -0.1132           **0.668**    **-0.683**  
## 
##    **volatile.acidity**           0.07647            0.02203       0.2349    
## 
##      **citric.acid**              0.03553          **0.3649**    **-0.5419** 
## 
##     **residual.sugar**             0.203           **0.3553**     -0.08565   
## 
##       **chlorides**                0.0474            0.2006        -0.265    
## 
##  **free.sulfur.dioxide**         **0.6677**         -0.02195       0.07038   
## 
##  **total.sulfur.dioxide**            1               0.07127      -0.06649   
## 
##        **density**                0.07127               1        **-0.3417** 
## 
##           **pH**                  -0.06649         **-0.3417**        1      
## 
##       **sulphates**               0.04295            0.1485        -0.1966   
## 
##        **alcohol**                -0.2057          **-0.4962**     0.2056    
## 
##        **quality**                -0.1851            -0.1749      -0.05773   
## -----------------------------------------------------------------------------
## 
## Table: Table continues below
## 
##  
## -------------------------------------------------------------------
##           &nbsp;            sulphates      alcohol       quality   
## -------------------------- ------------ ------------- -------------
##     **fixed.acidity**         0.183       -0.06167       0.1241    
## 
##    **volatile.acidity**       -0.261       -0.2023     **-0.3906** 
## 
##      **citric.acid**        **0.3128**     0.1099        0.2264    
## 
##     **residual.sugar**       0.005527      0.04208       0.01373   
## 
##       **chlorides**         **0.3713**     -0.2211       -0.1289   
## 
##  **free.sulfur.dioxide**     0.05166      -0.06941      -0.05066   
## 
##  **total.sulfur.dioxide**    0.04295       -0.2057       -0.1851   
## 
##        **density**            0.1485     **-0.4962**     -0.1749   
## 
##           **pH**             -0.1966       0.2056       -0.05773   
## 
##       **sulphates**             1          0.09359       0.2514    
## 
##        **alcohol**           0.09359          1        **0.4762**  
## 
##        **quality**            0.2514     **0.4762**         1      
## -------------------------------------------------------------------

## Warning: Removed 84 rows containing non-finite values (stat_boxplot).
## Warning: Removed 84 rows containing non-finite values (stat_summary).
## Warning: Removed 84 rows containing missing values (geom_point).

## Warning: Removed 41 rows containing non-finite values (stat_boxplot).
## Warning: Removed 41 rows containing non-finite values (stat_summary).
## Warning: Removed 41 rows containing missing values (geom_point).

## Warning: Removed 41 rows containing non-finite values (stat_boxplot).
## Warning: Removed 41 rows containing non-finite values (stat_summary).
## Warning: Removed 42 rows containing missing values (geom_point).

## Warning: Removed 9 rows containing non-finite values (stat_boxplot).
## Warning: Removed 9 rows containing non-finite values (stat_summary).
## Warning: Removed 9 rows containing missing values (geom_point).

## Warning: Removed 58 rows containing non-finite values (stat_boxplot).
## Warning: Removed 58 rows containing non-finite values (stat_summary).
## Warning: Removed 59 rows containing missing values (geom_point).

## 
## Call:
## lm(formula = as.numeric(quality) ~ alcohol, data = rwineqa)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.8442 -0.4112 -0.1690  0.5166  2.5888 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -0.12503    0.17471  -0.716    0.474    
## alcohol      0.36084    0.01668  21.639   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.7104 on 1597 degrees of freedom
## Multiple R-squared:  0.2267, Adjusted R-squared:  0.2263 
## F-statistic: 468.3 on 1 and 1597 DF,  p-value: < 2.2e-16
##        fixed.acidity     volatile.acidity          citric.acid 
##           0.12405165          -0.39055778           0.22637251 
## log10.residual.sugar      log10.chlorides  free.sulfur.dioxide 
##           0.02353331          -0.17613996          -0.05065606 
## total.sulfur.dioxide              density                   pH 
##          -0.18510029          -0.17491923          -0.05773139 
##      log10.sulphates              alcohol 
##           0.30864193           0.47616632

Discuta sobre alguns dos relacionamentos observados nesta parte da investigação. Como os atributos de interesse variaram no conjunto de dados?

No teste de correlacao, os atributos que apresentaram forte correlação com ‘quality’ foram: 1.alcohol 2.sulphates(log10) 3.volatile acidity 4.Citric Acid

Better wines seem to have lower densities. But then again, this may be due to the higher alcohol content in them.

  1. volatile.acidity tem correlação negativa com ‘quality’
  2. ‘citric.add’ em alta concentração pode estar relacionado a bons vinhos.
  3. os bons vinhos também estão relacionado a nível mais altos de ‘alcohol’ juntamente com baixa ‘density’, o que é normal determinado pela concentração de açucares que forma o alcool e diminui a densidade
  4. bons vinhos ligados a taxas mais altas de ‘sulphates’
  5. ‘residual.sugar’ não tem influencia na qualidade

Você observou algum relacionamento interessante entre os outros atributos (os que não são de interesse)?

Entre density and alcohol, sendo uma correlacao negativa, pois uma quantidade de alcool indica menos densidade do vinhos, que concentrou menos açucares, e os acidos também apresentaram uma forte correlação com ‘pH’, estas relações possuim consenso comum.

Qual foi o relacionamento mais forte encontrado?

Destaque para ‘alcohol’ com quality

Seção de Gráficos Multivariados

Inserindo novos atributos no gráfico e tendo ‘alcohol’ como uma constante, para entender se os demais atributos inferem na qualidade do vinho

Alcohol combinado com maior concentração de ‘sulphates’ combinam em um bom vinho

‘alcohol’ com baixa concentração de ‘volatile.acidity’ contribuem para um bom vinho

Baixo ‘pH’ juntamente com concentração alta de ‘alcohol’ representam bons vinhos.

‘residual.sugar’ tem pouca correlação com nível mais alto de ‘alcohol’

‘total.sulfur.dioxide’ tem baixa correlação com ‘alcohol’, mas contribui para bons vinhos

Já que acidos tiveram um forte correlação com a qualidade, analisei suas correlações

alta concentração de ‘citric.acid’ com baixa low ‘volatile.acid’ contribuem para um bom vinho.

baixa correlação, mas concentração baixa de ‘fixed.acidity’ contribue para um bom vinho

baixa correlação também, porém os dois em baixa concentração contribuem melhor para um bom vinho

Análise Multivariada

Discuta sobre os relacionamentos observados nesta parte da investigação. Quais atributos que fortaleceram os demais na observação das variáveis de interesse?

A influencia do ‘citric.acid’ surpreendeu bastante, incluse na correlação com os demais acidos e destaque também para a baixa concentração de ‘volatile.acidity’. Alcool continua sendo o atributo de maior influencia, porém relacionado com nível baixo de Sulphates, apresentou um bom indicador de influencia na qualidade dos vinhos.

Interações surpreendentes e/ou interessantes foram encontradas entre os atributos?

Destaque para ‘ciric.acid’ que tanto relacionando com o atributo de forte correlação com qualidade, que é o ‘alcohol’, nas interações com os demais acidos, também com alta concentração, se mostrou bem influente.

OPCIONAL: Modelos foram criados usando este conjunto de dados? Discuta sobre os pontos fortes e as limitações do seu modelo.

Gráficos Finais e Sumário

Primeiro Gráfico

Descrição do Primeiro Gráfico

Alcool demonstrou forte influencia em várias análises e visto que a maior parte dos vinhos tiveram qualidade média, pode-se notar que o alcool teve maior concentração de destaque no meio do gráfico.

Segundo Gráfico

## Warning: Removed 8 rows containing non-finite values (stat_smooth).
## Warning: Removed 8 rows containing missing values (geom_point).

Descrição do Segundo Gráfico

Baixa concentração de Sulphate também tem destaque na interação com alta concentração de Alcool para produzir vinhos de qualidade. A baixo inclinação no eixo horizontal é porque a influencia do Sulphate na qualidade dos vinhos tem poucos níveis de medida em relação ao alcool.

Terceiro Gráfico

Apresentei 4 atributos com fortes representação nos testes em gráficos de dispersão, novamente podemos observar como em gráficos anteriores que o nível de Alcohol alto e baixo Sulphates, geram alto impacto na qualidade, já o Acido Citrico teve boas iterações com os outros atributos na análise da qualidade, mas nunca com forte correlação.

#Reflexão

No meu trabalho após entender quais eram o atributos com forte correlação direta com a qualidade dos vinhos, tendo o Alcohol como ator principal e sabendo que esta propriedade puramente não definiria um bom vinho, procurei explorar a relação destes coma as demais propriedades.

Na análise bivarial, cruzei com vários atributos, encontrei uma interessante relação do Alcohol com maior concentração de Sulfates e um inverso quando relacionado com Volatile Acidity, estes dois atributos para mim tiveram fortes influencias.

Fiz uma tentativa de investigar a influência dos acidos na qualidade dos vinhos, removendo o atributos de destaque da visão, neste momento achei a influencia do Citric Acid bem interessante.

Visto que boa parte deste conjunto de dados, os vinhos foram classificaos dentro da média de qualidade, procurei pautar minhas decisões primeiramente na média de qualidade, analisando as correlações fortes.